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摘要 : [目的 /意义 ] 大 数据 环境 下 ,用 户 的 知识 需求 由 分 散 向 关联 转变 ,利用 多 特征 耦合 可 以 辅助 知识 发 
现 服 务 发 现 资源 间 的 多 种 相关 关系 ,从 而 优化 知识 发 现 服务 。 [方法 过程] 通过 分 析 文 献 内 部 和 外 部 属性 特征 
定义 多 特征 耦合 的 概念 ,从 功能 角度 出 发 ,剖析 多 特征 耦合 与 数字 图 书馆 知识 服务 之 间 的 关系 ,结合 现 有 的 知 
识 发 现 系 统 构建 多 特征 耦合 架构 ,基于 数据 层 - 耦合 层 - 服 务 层 三 层 提 出 提升 知识 发 现 服务 供给 侧 的 方法 。 
[结果 /结论 ] 数据 层 保障 数据 的 质量 ,数据 源 由 单一 向 混合 转变 ;耦合 层 提 升 耦合 分 析 效 果 , 分 析 单 位 由 粗 向 细 
转变 ,注重 细 将 度 单元 间 的 语义 关联 ;服务 层 重 视 用 户 的 交互 体验 ,开发 多 维 可 视 化 功能 。 
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言 息 化 、 网 络 化 、 全 媒体 的 “大 数据 "时 代 下 的 数 
演 图 书馆 知识 发 现 服务 ,运用 最 新 的 网 络 工 具 、 理 论 、 
技术 等 ,融合 关联 和 协同 理念 ,为 用 户 观测 信息 、 寻 找 
资 涯 .发 现 知识 ,并 为 知识 找到 用 户 ,从 而 提供 有 关 知 
识 的 智能 服务 ” 。 而 大 数据 驱动 下 的 数据 化 浪 湖 促使 
书局 的 需求 趋向 碎片 化 ,个 性 化 ,精准 化 和 知识 化 ,用 
户 中 再 希望 浪费 时 间 和 精力 在 海量 资源 中 甄别 和 判读 
信息 ,而 是 希望 直接 获取 某 一 具体 领域 中 细 粒 度 的 知 
误 * 某 一 主题 下 精细 化 的 知识 体系 。 并 且 用 户 不 再 以 
传统 的 学 科 方 式 构建 认 知 , 而 是 基于 个 人 所 需 的 知识 
点 及 其 知识 关联 进行 智慧 活动 ”。 因 而 用 户 使 用 数字 
图 书馆 检索 浏览 时 ,希望 检索 到 的 不 仅 是 一 篇 文献 ,还 
有 该 文献 在 全 部 知识 体系 中 的 位 置 及 其 重要 性 。 假 设 
把 一 篇 文献 看 作 是 一 个 知识 点 ,那么 用 户 除了 想 找到 
这 个 点 之 外 ,还 想 找到 该 点 所 在 的 线 以 及 该 线 所 在 的 
面 。 同 时 ,大 数据 也 改变 了 传统 的 数据 分 析 模 式 , 由 假 
设 因果 关系 到 检验 样本 数据 的 分 析 模 式 转变 为 实时 从 
大 量 数据 中 发 现 数据 间 的 相关 性 ,以 判断 事物 关联 的 
发 展 趋势 ”"。 在 现实 生活 中 任何 资源 都 不 是 孤立 的 ， 


在 其 产生 过 程 中 都 存在 着 知识 的 产 出 与 投入 的 因果 关 
系 ,这 种 知识 间 输 出 与 流入 的 关系 便 形成 了 耦合 的 基 
础 。 耦 合 是 信息 资源 实体 间 相 互 影响 而 普通 存在 的 一 
种 现象 ,是 指 两 个 及 两 个 以 上 不 同 主体 建立 在 同一 客 
体 上 形成 的 相互 之 间 的 潜在 关系 ,这 种 潜在 的 联系 是 
通过 两 个 事物 间 共 同 的 特征 项 构成 ,特征 项 的 量化 反 
映 了 两 者 间 关 联 的 程度 ” 。 耦 合 无 形 的 将 资源 主体 按 
照 其 特征 单元 进行 聚 类 ,形成 围绕 某 一 主题 展开 的 相 
关 性 知识 网 络 , 将 知识 的 点 、 线 、 面 之 间 进 行 了 有 趣 的 
联系 ,用 来 揭示 点 、 线 、 面 间 隐 含 的 知识 和 规则 ,为 用 户 
不 仅 找 到 了 所 需 的 知识 ,还 发 现 了 知识 间 药 含 的 关联 
和 寓意 ,并 且 通 过 潜在 的 线索 挖掘 出 有 价值 的 情报 , 辅 
助 科研 决策 活动 。 


2 多 特征 耦合 和 数字 图 书馆 知识 发 现 


2.1 多 特征 耦合 的 定义 

耦合 的 概念 最 早 源 自 欧洲 人 RM.，Fano' ,直到 
1963 年 由 麻 省 理工 学 院 教授 M，Kessler 提出 "文献 耦 
合 " 才 在 计量 学 领域 广泛 受到 关注 。M.，Kessler'" 表示 
耦合 关系 是 两 篇 或 多 篇 文献 通过 共同 引用 的 参考 文献 
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建立 起 来 的 ,耦合 关系 的 强 弱 由 共同 引用 的 参考 文献 
数量 而 定 , 且 耦 合 强度 越 高 ,文献 间 的 联系 就 越 紧密 ， 
主题 相关 性 也 就 越 高 。E，Bassecoulard 等 "| 还 指出 文 
献 耦合 关系 不 仅 说 明文 献 主题 间 有 相近 的 关系 ,还 表 
明文 献 作者 间 的 研究 主题 也 有 相近 的 关系 。 国 内 最 早 
研究 而 合 的 是 王 淘 ,他 于 1981 年 将 文献 耦合 的 思想 
引入 中 国 。 随 后 ,三 均 平 中 将 M，Kessler 提出 的 文献 
耦合 概念 进一步 扩展 到 作者 期刊. 语种. 机构 .学 科 之 
间 。 张 郁 蔚 5 还 认为 文献 耦合 在 提出 之 时 虽然 是 以 
文献 为 耦合 单位 ,但 文献 是 由 作者 在 其 研究 领域 的 专 
业 期 刊 上 发 表 的 ,而 且 每 种 期 刊 有 其 主题 和 所 属 的 类 
别 ,所 以 文献 .作者 ,期刊 .主题 及 所 属 类 别 等 只 是 层次 
上 的 差别 ,都 可 以 作为 文献 耦合 的 基本 单位 。 随 着 对 
耦合 关系 的 研究 发 展 , 我 们 可 以 利用 耦合 关系 来 揭示 
念 李 .关键 词 ` 正 文 期刊. 机 构 等 多 种 特征 单元 间 的 相 
关 关 系 。 在 信息 计量 学 中 耦合 分 析 实质 是 一 种 交叉 共 
现 移 关系” ,通过 文献 中 相同 特征 的 共 现 关联 从 而 实 
现 巴 同 特征 关联 的 一 种 分 析 方 法 , 即 从 不 同 维度 的 特 
德 项 出 发 ,建立 这 些 特征 项 内 部 特征 关联 的 关系 。 每 
-5 文 南都 是 由 若干 个 特征 项 构成 ,包括 作者 ,引文 、 
关键 词 .期 刊 等 ,通过 对 特征 项 的 合理 组 合 构成 了 文献 
的 韦 要 特征 ,这 也 是 区 别 于 其 他 资源 的 特质 ” ,而且 
特征 项 因 其 属性 不 同 而 各 异 。 因 此 ,这 提出 的 多 特征 
耦合 是 指 融 合 文献 的 内 部 和 外 部 特征 ,以 不 同 的 特征 
项 为 主体 构建 耦合 关系 ,主要 以 文献 本 身 及 其 创作 者 
为 生 ; 利 用 不 同 的 特征 项 为 客体 ,衡量 客体 间 的 耦合 强 
大 5 要 是 对 关键 词 .正文 内 容 .参考 文献 .期刊 等 进行 
的 侈 量化 分 析 , 从 而 构建 多 角度 .深层 次 的 耦合 关系 ， 
为 用 户 揭示 丰富 全 面 的 知识 内 容 。 文 献 外 部 特征 主要 
体现 在 文献 的 一 般 性 描述 元 数据 中 , 即 不 涉及 文献 的 
内 容 , 而 内 部 特征 是 从 对 文献 内 容 的 引用 和 知识 利用 
角度 入手 ,重点 对 文献 的 内 容 进行 分 析 , 如 表 1 所 示 : 
表 1 文献 内 外 部 特征 分 类 


特征 项 属性 特征 分 类 
篇 名 对 内 容 的 利用 和 引用 内 容 特 征 
商 要 
关键 记 
正文 
者 知识 的 创造 才 外 部 特征 

合 著作 者 

参考 文献 文献 的 引用 关系 

文献 来 源 期 刊 . 会 议 等 文献 的 载体 

项 目 资源 项 目 来源 

收 项 日 其 时 间 

发 表 日 其 


2.2 多 特征 耦合 与 数字 图 书馆 知识 发 现 服务 的 关系 

在 大 数据 环境 下 ,数字 图 书馆 知识 发 现 服务 依托 
已 有 的 系统 平台 ,通过 对 结构 化 、 半 结构 化 、 非 结构 化 
数据 的 泛 在 化 .语义 化 ,关联 化 .可 视 化、 智能 化 的 层级 
解构 ,挖掘 知识 单元 间 洪 在 的 语义 关联 ,并 进行 知识 图 
谱 呈 现 、 个 性 化 定制 .智能 寻 证 检索 决策 等 服务 应 
用 。 彭 佳 “ 指 出 目前 的 知识 发 现 系 统 正 尝 试 通过 
关联 数据 ,语义 技术 等 将 具有 共同 特征 的 资源 融合 在 
一 起 ,从 语义 层面 上 实现 资源 的 组 织 聚 合 ,以 便 用 户 准 
确 判 断 多 类 型 资源 的 内 在 联系 ,达到 智能 化 的 知识 发 
现 。 曾 建 勋 对 科研 文献 进行 元 数据 规范 化 处 理 及 
揭示 语义 关系 后 ,形成 了 “机 构 - 人 员 -科研 成 果 ” 的 
关系 图 ,对 文献 中 隐 含 的 科研 ` 机 构 合作 等 关系 充分 揭 
示 ,实现 了 基于 语义 的 科研 文献 推荐 和 知识 发 现 。 可 
见 ,知识 发 现 服务 正 应 用 关联 技术 ,语义 技术 等 ,通过 
知识 的 语义 关联 .引证 耦合 , 朝 着 智能 化 .语义 化 ,关联 
化 的 方向 发 展 。 多 特征 耦合 将 外 表 毫 无 关联 的 主体 通 
过 客体 的 相似 性 特征 重新 联系 在 一 起 ,为 用 户 显 示 出 
主体 间 错 综 复 杂 的 关系 ,帮助 用 户 厘 清 各 类 型 主体 间 
的 内 在 关联 ,挖掘 出 隐藏 在 内 部 的 知识 ,并 引导 用 户 发 
现 新 的 知识 结构 和 规律 。 多 特征 耦合 为 知识 发 现 服务 
提供 从 不 同 视角 分 析 文 献 资源 的 关系 ,以 及 对 这 些 关 
系 进行 深层 次 的 挖 气 和 重新 组 织 , 可 为 用 户 提供 特定 
主题 检索 .个 性 化 知识 推荐 服务 ,探寻 学 科 知 识 结构 及 
演化 规律 ,知识 前 沿 分 析 与 预测 等 服务 。 多 特征 耦合 
的 具体 功能 见 表 2。 

一 方面 ,多 特征 耦合 分 析 从 文献 内 容 的 不 同 使 用 
情况 出 发 ,通过 对 文献 中 共同 利用 的 知识 单元 进行 定 
量 分 析 ,测度 知识 单元 间 的 耦合 强度 ,根据 耦合 强度 把 
内 容 上 具有 相似 性 的 文献 聚 在 一 起 形成 复 。 从 而 使 发 
现 服 务 可 按 文献 的 引用 情况 将 文献 组 合成 小 批量 的 相 
关 集 群 ,从 文献 利用 的 角度 为 用 户 提供 检索 途径 ,并 引 
导 用 户 了 解 所 需 的 相关 文献 ,扩展 用 户 的 阅读 范围 。 
基于 引用 关系 建立 的 耦合 ,反映 的 是 文献 间 静 态 的 关 
系 , 文 献 一 经 发 表 , 其 频次 便 是 确定 的 ,不 会 随时 间 的 
变化 而 变化 ,通过 文献 的 耦合 频次 测度 当前 已 发 表 文 
献 间 的 相似 度 ,可 为 用 户 实现 个 性 化 的 知识 推荐 , 当 用 
户 在 查看 茶 篇 新 刊登 的 论文 时 ,发 现 系 统 会 为 用 户 推 
荐 与 该 文献 最 相关 的 、 最 新 的 其 他 论文 ,还 可 以 帮助 用 
户 发 现 最 新 的 学 术 信 息 , 尤 其 是 对 于 需要 某 领 域 研究 
最 新 信息 的 用 户 。 同 时 ,发 现 服务 可 透 过 高 被 引文 献 
的 耦合 ,为 用 户 揭示 目前 各 学 科 领 域 活跃 的 研究 前 沿 ， 
且 对 不 同时 期 的 前 沿 信 息 比 较 ， 展 示 各 个 研究 前 沿 的 
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表 2 多 特征 耦合 分 析 的 功能 


主体 客体 耦合 路 径 耦合 功能 
发 表 文 献 参考 文献 文献 一 参考 文献 耦合 揭示 学 科 间 的 发 展 规律 和 组 织 结构 ,为 文献 检索 提供 新 途径 
发 表 文 献 引文 发 表 时 间 文献 一 发 表 时 间 探索 研究 领域 内 部 研究 方向 ,反映 研究 方向 的 演化 及 历史 关系 
发 文 作者 文献 类 别 作者 一 分 类 号 从 学 科 专业 角度 揭示 文献 的 学 科 类 属 ,反映 作者 专业 领域 的 相似 性 
发 文 作者 载体 作者 一 期 刊 揭示 领域 知识 结构 ,发 现 领域 主题 ,挖掘 共同 的 学 术 社区 
作者 一 会 议 
发 文 作者 关键 词 作者 一 关键 词 测度 作者 相似 性 ,发 掘 潜在 合作 关系 ,识别 可 能 的 科研 团体 ,研究 主题 分 布 情况 
发 文 作者 正文 内 容 作者 一 引文 揭示 学 科 的 智力 结构 ,发 现 当前 研究 主题 下 的 活跃 群体 ,挖掘 作 者 在 学 科 发 展 中 的 变化 轨迹 
发 表 文献 正文 内 容 文献 一 引文 探索 知识 基础 ,揭示 学 科 的 发 展 情况 ,揭示 研究 前 沿 热点 
发 表 文 献 内 容 特 征 词 文献 一 关键 词 发 现 文献 研究 主题 ,识别 核心 文献 
引用 内 容 引用 内 容 知识 单元 一 知识 单元 挖掘 领域 内 在 知识 结构 特征 


波峰 与 波 谷 ,方便 科研 用 户 在 各 个 研究 领域 的 孕 衣 期 
和 下 升 初期 选择 研究 切 人 点 ,帮助 其 选择 适合 的 研究 
加 名 ,使 用 户 可 以 直观 地 掌握 研究 前 沿 的 发 展 轨迹 ,了 
解 专业 领域 研究 前 沿 的 焦点 ,进而 探测 到 潜在 的 ,办 新 
的 友 究 前 沿 信息 。 

@ 另 一 方面 ,多 特征 耦合 从 文献 外 部 特征 角度 出 发， 
通过 对 主体 间 的 相似 性 要 素 构建 耦合 关系 。 作 者 是 知 
认 响 源 创新 的 直接 反映 ,反映 的 是 作者 间 共 同 的 学 术 
笃 洒 ,这 些 行为 从 侧面 反映 了 作者 彼此 间 学 术 研究 兴 
趣 砚 联系 ,基于 同一 研究 主题 聚集 相关 著者 。 通 过 同 
一 主题 下 的 著者 群 ,发 现 服务 从 某 一 细 分 领域 向 用 
灸 揭示 学 科 知识 结构 ,从 而 引出 这 一 细 分 领域 下 学 
术 工 同体 的 智力 结构 鸟 葬 图 。 而 且 通过 高 强度 确 合 
聚 蛇 在 一 起 形成 的 作者 群 ,可 从 耦合 作者 群 中 的 著 
者 星 名 出 发 ,利用 著者 检索 为 用 户 搜索 出 某 专业 下 
辣 各 所 发 表 的 全 部 有 关 文 献 , 还 可 以 为 用 户 提供 该 
学 科 课 题 研究 的 定 题 检 索 服务 。 作 者 间 的 耦合 是 一 
种 动态 结构 ,会 随 着 时 间 的 改变 而 改变 。 发 现 服务 
从 作者 间 动 态 的 耦合 关系 出 发 揭示 学 科 领 域 关注 热 
点 的 变化 以 及 未 来 发 展 趋势 ,用 户 在 查找 资料 时 , 系 
统 可 以 帮助 用 户 发 现 最 新 最 常 被 引用 的 文献 ,揭示 
研究 前 沿 可 能 发 生 的 变化 。 而 且 还 可 以 通过 耦合 关 
系 将 文献 按照 时 间 片 段 聚 类 ,根据 耦合 强度 利用 到 
类 技术 把 某 段 时 间 内 相关 性 高 的 文献 聚集 在 一 起 ， 
同一 时 间 段 内 的 文献 径 揭 示 的 主题 便 是 该 时 间 内 某 
领域 下 的 知识 结构 ,不 同时 间 段 的 文献 徐 则 表明 知 
识 结构 的 演化 历程 。 由 以 上 分 析 可 以 看 出 ,发 现 服 
务 可 以 通过 从 文献 内 容 利用 的 不 同情 况 或 文献 的 


3 ”数字 图 书馆 知识 发 现 服务 多 特征 耦合 


目前 ,数字 图 书馆 知识 发 现 服务 都 是 依靠 一 定 的 
系统 平台 展开 ,如 百度 学 术 搜 索 ,超星 发 现 系统 、 知 网 
KND 知识 发 现 网 络 系统 、 维 普 智 立方 发 现 系 统 、 万 方 
“ 淘 智 "发现 系统 等 主流 系统 ,逐步 实现 了 对 学 术 宏观 
走向 路 学 科 交 叉 及 影响 和 知识 再 生 方向 的 判断 ,具备 
了 对 特定 年 代 、 领 域 ` 人 物 及 机 构 的 学 术 成 果 态势 的 多 
维度 对 比分 析 和 研究 。 因 此 ,笔者 结合 多 特征 耦合 的 
定义 及 其 与 知识 发 现 服务 的 关系 ,基于 知识 发 现 系统 
构建 知识 发 现 服务 多 特征 耦合 架构 ,该 框架 自 下 而 上 
分 为 数据 层 、 耦 合 层 .服务 层 3 个 层次 ,贯穿 知识 发 现 
系统 从 初始 数据 收集 处 理 到 满足 用 户 需 求 的 整个 过 
程 。 见 图 1 。 

41) 数据 层 : 主 要 负责 数据 的 采集 和 处 理 。 从 不 
同 的 数据 源 中 采集 数据 ,获取 期 刊 论文 .学 位 论文 、 会 
议论 文 等 资源 ,在 收集 数据 过 程 中 ,数据 的 字段 格式 、 
字段 名 等 不 统一 现象 对 耦合 分 析 造 成 困难 。 数 据 层 主 
要 分 为 两 个 步骤 :中 对 数据 预 处 理 , 去 除 噪 声 数 据 , 获 
取 剩 下 的 列 含 所 需 知识 的 数据 ,这 一 步 是 为 知识 发 现 
系统 提供 良好 知识 服务 的 前 提 和 基础 ;@ 对 提取 之 后 
的 数据 建立 标准 的 ,专业 化 的 知识 库 , 以 便 后 期 耦合 分 
析 使 用 。 数 据 层 移 对 无 效 、 缺 失 、 错 误 .重复 等 数据 进 
行 吻 除 和 清洗 ,利用 数据 审计 检测 数据 的 质量 ,转化 数 
据 的 类 型 .大 小 .单位 等 以 方便 实现 数据 的 转换 和 标准 
化 处 理 ,借助 归 约 ,排序 .抽样 等 对 目标 数据 实现 集成 ， 
最 终生 成 相应 高 质量 的 引文 数据 库 、 关 键 词 主 题词 


部 特征 出 发 ,构建 资源 间 相 关 关系 ,从 而 为 用 户 提供 
优质 的 发 现 服务 。 
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库 、 作 者 数据 库 、 作 者 机 构 库 等 专业 知识 库 , 便 于 耦合 
层 准确 识别 资源 的 特征 项 。 
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服务 


二 


关联 图 


引证 关系 图 \: 
多 主题 对 比 / 


(CR: 


入 献 一 发 文 时 间 |[ 文献 一 关键 癌 — 人 
[作者 一 关键 间 | (作者 一 引文] Ti 
: 号] (作者 一 载体 | 二 


作者 一 分 类 号 EE 
: 二 一 > 神 合 强度 / 


S 
中 〇 图 1 数字 图 书馆 知识 发 现 服务 多 特征 看 合 架 构 


~ 

@ 〇 (2 ) 耦 合 层 : 主要 负责 多 特征 耦合 关系 的 生成 和 
泡 较 缚 类 。 多 特征 耦合 关系 是 通过 两 个 主体 间 的 相似 
慌 要 素 构建 ,并 通过 客体 间 的 相关 性 程度 获得 ,相关 性 
大 小 用 赵 合 强度 来 衡量 。 看 合 强度 越 大 ,相似 性 程度 
越 高 ,耦合 网 络 中 的 聚 类 效果 越 佳 。 首 先 , 利 用 已 构建 
好 网 知 识 库 , 对 初步 优化 好 的 目标 数据 通过 文献 计量 
分 煌 中 的 共 词 分 析 ` 共 篇 分 析 、 引 文 分 析 等 方法 对 资源 
的 冬 同 特征 项 进行 分 析 ,识别 主体 间 拥有 的 相似 要 素 ， 
构 争 不 同 主体 资源 与 客体 特征 的 耦合 路 径 , 如 从 文献 
内 容 的 不 同 使 用 情况 出 发 构建 文献 - 引文 文献 - 关 
键 词 或 作者 - 引文 .作者 - 关键 词 间 的 耦合 路 径 , 通 过 
衡量 客体 间 耦 合 强度 从 而 获得 主体 间 相 似 性 的 大 小 ， 
集成 聚 类 强 的 关联 节点 ,构建 具备 紧密 联系 的 知识 链 ， 
利用 中 心性 分 析 、 凝 聚 子 群 分 析 、 核 心 - 边缘 分 析 .时 
序 分 析 等 方法 构建 耦合 知识 网 络 !9 ,通过 网 络 中 的 节 
点 距离 和 密度 反应 节点 间 联 系 的 亲 朴 程度 ,从 而 识别 
出 领域 的 核心 作者 及 其 学 术 影 响 力 .潜在 学 术 团 体 的 
凝聚 规模 ,学 科 主 题 关 系 的 交叉 程度 ,学 科 发 展 的 历史 
和 趋势 及 知识 间 的 交流 和 流动 程度 等 。 这 一 层 中 , 主 
要 是 对 选取 的 耦合 单位 建立 耦合 关系 ,形成 紧密 关联 
的 耦合 网 络 ,借助 可 视 化 技术 对 耦合 网 络 进行 静 动态 
的 图 形 表征 ,为 用 户 呈 现 目 标 检索 .解读 .预测 等 具备 
视觉 表达 的 知识 域 。 


(3) 服 务 层 : 主 要 负责 连接 用 户 与 知识 发 现 系统 ， 
是 用 户 查 询 输入 与 系统 结果 输出 的 纽带 。 目 前 ,知识 
发 现 系统 可 根据 用 户 的 检索 策略 行为 等 数据 ,在 耦合 
分 析 层 基础 上 通过 可 视 化 图 形 形 象 地 展示 分 析 结 果 ， 
为 用 户 提供 词 谱 图 、 知 识 点 关联 图 \ 作 者 关联 图 、 机 构 
关联 图 .多 主体 对 比 及 引证 关系 图 等 ,实现 对 主题 词 、 
关键 词 知识 点 ,作者 ,作者 机 构 等 的 立体 关联 ,挖掘 和 
追溯 领域 研究 主题 ,分 析 多 领域 .多 主题 ,多 学 科 等 的 
学 术 研 究 的 生长 方向 ,预测 学 术 发 展现 状 及 未 来 趋势 
等 ,为 用 户 解 读 知识 脉络 、 分 析 多 维 知识 .智能 化 决策 
等 提供 了 辅助 途径 。 同 时 通过 高 耦合 强度 资源 的 聚 
类 ,根据 聚 类 结果 向 用 户 提供 资源 推荐 和 知识 服务 , 引 
导 用 户 需 求 , 协 助 展开 个 性 化 服务 。 在 这 一 层 中 ,数字 
图 书馆 知识 发 现 系 统 数据 的 清理 更 新 ,相关 数据 库 的 
完善 耦合 关系 的 全 面 分 析 ` 知 识 关 联 图 谱 的 动态 升级 


等 都 会 影响 服务 质量 和 效果 。 
4 数字 图 书馆 知识 发 现 服务 多 特征 耦合 


优化 


从 前 文 提 出 的 数字 图 书馆 知识 发 现 服务 多 特征 耦 
合 框架 可 知 , 目 前 的 知识 发 现 系统 拥有 海量 的 各 类 型 
资源 及 专业 规范 的 知识 库 , 通 过 对 馆藏 资源 进行 纵横 
结合 深 达 知识 内 在 关系 的 挖掘 和 分 析 ,揭示 知识 间 的 
复杂 交叉 关系 ,大 尺度 多 维度 的 对 特定 领域 .年 代 、 著 
者 及 机 构 的 学 术 研 究 成 果 进行 对 比分 析 和 研究 ,并 以 
可 视 化 方式 展示 。 虽 然 这 些 知识 发 现 系统 已 能 辅助 用 
户 实现 智能 检索 、 个 性 化 推荐 .学 术科 研 辅 助 等 服务 ， 
但 随 着 信息 环境 的 变化 ,用 户 的 需求 也 发 生 了 变化 ,对 
知识 发 现 服务 也 有 了 更 高 的 期 待 。 在 大 数据 环境 下 ， 
用 户 对 知识 获取 的 需求 由 粗 转 细 、 由 分 散 向 综合 转变 ， 
针对 性 、 精 细 化 的 需求 特征 明显 ,而 且 用 户 对 发 现 服 务 
的 要 求 更 倾向 于 资源 的 深度 和 广度 分 析 、 知 识 服 务 的 
苑 争 力 分 析 、 知 识 创新 性 的 预测 综述 服务 的 发 展 态 势 
等 高 附加 值 的 服务 ” 。 同 时 ,用 户 希 望 数 字 图 书馆 提 
供 的 是 一 个 交互 友好 ,关联 协作 的 发 现 平 台 ,引导 并 文 
持 其 发 现 未 知 的 知识 结构 和 规律 。 因 此 ,面向 用 户 不 
断 变化 的 需求 ,数字 图 书馆 知识 发 现 服务 应 紧 紧 把 握 
住 “ 环 境 改变 需求 ,需求 变革 服务 "的 理念 ,提升 服务 
供给 侧 的 能 力 , 通 过 数据 层 - 耦合 层 - 服务 层 的 优化 
实现 资源 间 的 更 有 效 关 联 ,促进 重要 的 资源 发 现 和 重 
用 ,帮助 用 户 创 造 新 知识 .解决 新 问题 。 


ey 
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4.1 ”数据 层 注重 由 单一 数据 源 向 混合 数据 源 转变 
合理 选择 耦合 单位 的 来 源 是 多 特征 耦合 分 析 的 出 
发 点 ,也 是 保证 耦合 分 析 的 质量 基础 ,才能 为 用 户 发 现 
真正 所 需 的 信息 ,提供 针对 性 的 发 现 服务 。 进 行 耦 合 
分 析 的 第 一 步 是 对 数据 层 中 资源 质量 的 把 关 , 尤 其 各 
类 型 资源 中 作者 姓名 歧义 性 的 问题 ,一 旦 处 理 不 正 
确 , 作 者 和 其 对 应 的 信息 不 能 完全 匹配 ,缺乏 足够 的 
信息 来 定位 和 识别 作者 ,导致 用 户 检索 数据 时 往往 
会 检索 到 不 相干 的 同名 作者 发 表 在 其 他 领域 的 文 
献 ,一 旦 这 些 数据 作为 耦合 分 析 的 数据 对 象 , 那 么 获 
取 的 数据 量 将 会 增 大 ,使 得 后 期 而 合 分 析 工 作 产生 
额外 的 负担 。 因 此 ,数据 层 要 注重 有 效 的 数据 消 歧 
处 理 , 为 耦合 分 析 获 取 可 靠 的 数据 做 准备 ,实现 其 在 
整 哈 分 析 流程 中 的 价值 。 知 识 发 现 系统 从 数据 源头 
对 必 者 姓名 进行 规范 控制 ,主要 采取 对 作者 全 名 备 
注 C 对 作者 及 作者 机 构 信息 、 联 系 信息 等 联合 标 引 等 
谨 训 对 不 同 作者 身份 进行 甄别 5 ,帮助 用 户 准确 定 
位 数据 。 还 有 一 些 从 作者 源头 确认 身份 的 辅助 措 
施 s 鲍 如 利用 ResearchID ,ThuRID 、 指 纹 识别 等 新 兴 
栓 好 以 在 客观 上 为 作者 消 歧 提 供 帮 助 。 
中 在 大 数据 环境 下 ,数字 图 书馆 不 仅 包括 传统 的 
党 化 资源 ,如 图 书 、 期 刊 .报纸 .学 位 论文 等 ,还 包 
5 新 资源 ,如 免费 网 上 资源 ,文献 型 电子 资源 、 科 
学 数据 ,关联 性 标注 资源 等 ,还 有 大 量 的 全 新 资源 ， 
如 虹 户 的 行为 数据 评论 数据 .日志 数 据 . 地 理 位 置 
数 和 据 等 。 因 此 ,知识 发 现 服务 的 耦合 分 析 由 单一 的 
数 篇 源 向 混合 数据 源 转变 ,不 应 只 局 限于 已 发 表 的 
期 刊 论文 .会 议论 文 ,还 应 综合 利用 蕴含 近期 和 远 其 
研究 思想 的 科技 规划 文本 .科研 项 目 申请 书 .学 术 记 
录 热点 话题 报告 .用户 发 表 的 评论 等 数据 ,作为 构 
建 耦 合 分 析 数据 库 的 基础 。 单 一 数据 源 的 耦合 分 析 
是 片面 的 ,难以 满足 用 户 全 方位 的 信息 需求 ,尤其 是 
对 一 些 问 题 模糊 、 知 识 不 清 的 弱 信息 的 需求 。 利 用 
混合 数据 源 进行 耦合 分 析 , 可 以 通过 多 种 类 型 的 次 


4.2 耦合 层 注重 由 粗 粒 度 文本 分 析 向 细 粒 度 语 义 关 
联 分 析 转 变 

在 大 数据 环境 下 ,由 于 发 布 数据 的 成 本 变 得 低廉 ， 
发 布 渠道 更 加 多 样 ,用 户 无 论 是 在 数字 图 书馆 内 部 还 
是 外 部 都 面临 着 海量 的 碎片 化 资源 ,用 户 很 难 完整 获 
取 和 阅读 自己 所 需 领 域 的 全 部 相关 资源 ,驱使 用 户 对 
资源 的 获取 更 加 倾向 于 精细 化 .语义 化 和 关联 化 。 而 
且 目 前 的 知识 发 现 系统 都 是 基于 文献 中 的 相同 点 建立 
耦合 关系 ,很 少 从 语义 层面 实现 关联 ,而 基于 语义 层面 
的 关联 能 克服 资源 间 的 语义 异 构 , 实 现 资源 的 广度 关 
联 和 座 度 聚合 。 因 此 ,知识 发 现 系统 在 选择 耦合 单位 
时 要 从 粗 粒 度 的 知识 单元 深入 到 细 粒 度 的 知识 单元 
中 ,耦合 的 控制 单位 由 粗 转 细 , 文 献 中 包含 的 大 量 细 粒 
度 知识 单元 及 其 潜在 的 语义 结构 将 会 产生 知识 增值 ， 
促进 对 新 知识 的 创造 。 挖 掘 到 的 知识 单元 颗粒 度 越 
小 ,代表 的 知识 越 精确 ,通过 具有 语义 关联 的 细 粒 度 知 
识 单元 进行 耦合 分 析 , 可 以 挖掘 出 知识 单元 间 的 潜在 
关联 。 文 献 中 知识 单元 出 现 的 位 置 不 同 对 主题 的 表达 
能 力也 不 同 ,对 文献 中 涉及 表达 主题 的 标题 ,摘要 、 关 
键 词 .增补 关键 词 等 凝练 部 分 ,全 文 的 前 治 .讨论 和 结 
论 部 分 ,以 及 文章 段落 的 位 置 、 句 子 在 段落 中 的 位 置 和 
词 在 句子 中 的 位 置 ,综合 考虑 语 境 进 行 细 粒 度 的 挖掘 
和 划分 ,还 可 以 借鉴 CNKI 知识 元 搜索 ,该 功能 通过 
对 文献 的 统计 信息 .表格 .图片 等 信息 的 获取 基础 上 ， 
进一步 挖掘 到 文献 的 数据 事实 、 创 新 点 等 精细 粒度 的 
知识 单元 ”  。 利 用 语义 分 析 技术 实现 资源 的 精细 粒 
度 挖掘 和 基于 语义 的 纵横 关联 ,为 用 户 揭示 出 研究 领 
域 的 结构 细节 ,对 研究 领域 内 容 进行 详细 的 解读 ,使 得 
数字 图 书馆 知识 发 现 服务 从 传统 的 用 户 需 求 驱动 转变 
为 战略 规划 和 决策 服务 ,提升 数字 图 书馆 决策 辅助 的 
精准 化 程度 。 
4.3 服务 层 注重 多 维 可 视 化 的 交互 开发 

发 现 系统 的 服务 是 在 多 源 数据 融合 .精细 粒 度 知 
识 单元 语义 化 分 析 和 广度 关联 基础 上 展开 ,其 结果 的 


源 建 立 耦 合 关系 ,挖掘 多 种 资源 间 的 联系 ,形成 多 层 
次 的 耦合 网 络 ,揭示 不 同类 型 资源 间 同 质 层 节点 的 
关联 ,反映 蜡 质 层 节 点 间 的 联系 ,每 一 层 所 展示 的 内 
容 都 不 尽 相同 ,而 且 网 络 层次 越 多 ,关联 越 深 入 ， 
愈 能 清晰 地 梳理 问题 领域 的 知识 点 和 结构 ,准确 鉴 
别 问 题 和 问题 间 的 关系 ,为 用 户 揭示 丰富 的 隐 性 知 
识 ,满足 用 户 对 信息 的 多 方位 需求 。 
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展示 影响 着 其 服务 效果 的 发 挥 ,同时 也 对 可 视 化 性 能 
提出 了 更 高 的 要 求 。 大 数据 环境 下 用 户 希 望 通过 展 性 
的 可 视 化 交互 感知 ,对 海量 数据 进行 分 析 , 从 而 获取 知 
识 ,内 化 为 智慧 ,做 出 决策 ”。 因 此 ,数字 图 书馆 知识 
发 现 服务 应 借鉴 数据 可 视 化 技术 (综合 计算 机 图 形 学 、 
图 像 处 理 、 人 机 交互 等 技术 ) ,对 海量 、 异 构 、 多 来 源 的 
数据 进行 整合 分 析 , 利 用 图 形 元 素 对 多 源 数据 库 中 的 
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张 蛤 ， 华强， 丁 梦 晓 ,等 .基于 多 特征 耦合 的 数字 图 书馆 知识 发 现 服 务 优化 研究 [可 .图 书 情 报 工 作 ,2019 ,63(3):14 - 20. 


每 个 数据 项 表示 ,通过 图 形 ,符号 .颜色 ,纹理 等 表达 方 
式 及 时 生成 可 视 化 方案 ,而 且 以 多 维 数据 的 形式 表示 
数据 的 各 个 属性 值 , 并 对 其 进行 切片 . 块 . 旋 转 等 动作 
的 剖析 ,从 多 维度 ,全 方位 观察 数据 ,从 数据 中 抽取 出 
信息 ,挖掘 出 信息 间 的 潜在 规律 ,分 析出 有 意义 的 知识 
模式 ,帮助 用 户 发 现 新 的 知识 ,并 以 故事 的 形式 将 知识 
传递 给 用 户 ,使 用 户 在 获取 信息 之 外 还 有 所 启发 。 同 
时 ,为 了 向 用 户 进一步 反映 出 文献 .作者 学 科 等 隶属 
国家 和 地 区 间 的 分 布 情况 .交流 合作 程度 以 及 知识 流 
动 状况 ,也 为 了 向 更 多 科研 用 户 形象 地 展示 出 不 同 国 
家 和 地 区 科研 水 平 的 高 低 和 研究 侧重 点 ,发 现 系统 可 
借助 地 理 空间 分 析 方 法 ,通过 向 入 Google maps 或 Ya- 
hool 地 理 编码 ,创造 带 有 地 理 位 置信 息 的 可 视 化 图 
话 5 提 升 可 视 化 分 析 与 预测 的 科学 性 。 通 过 提升 可 视 
从 莘 性 能 ,为 用 户 提供 良好 的 交互 情境 ,引导 用 户 获得 
价值 的 知识 ,辅助 用 户 进行 学 科 溯源 .前 沿 掌握 , 核 
性 到 识 识别 等 。 

©O 
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S- 结语 


CD 在 大 数据 环境 下 ,用 户 已 不 再 为 了 获取 更 多 的 次 
湖广 使 用 数字 图 书馆 ,不 是 由 因 到 果 寻 找 知识 ,而 是 更 
ji 重 知识 间 的 相关 关系 .相互 关系 ,使 得 数字 图 书馆 
对 资源 内 容 及 其 关系 的 发 现 愈 发 重要 ,提供 知识 发 现 、 
知 温 关联 图 谱 .个 性 化 推荐 ,特性 检索 .辅助 科研 决策 
等 甩 务 傅 发 急迫 。 笔 者 通过 定义 多 特征 辜 合 构建 了 知 
识 胎 、 线 、 面 间 的 联系 ,基于 多 特征 耦合 在 数字 图 书馆 
短 训 发 现 服务 中 发 挥 的 功能 ,分 析 二 者 之 间 的 关系 ,在 
现 有 知识 发 现 系 统 的 基础 上 建立 了 多 特征 耦合 的 架 
构 ,面向 大 数据 环境 下 用 户 知识 需求 的 演化 ,进而 从 架 
构 的 数据 层 .耦合 层 和 服务 层 提出 相应 的 优化 建议 ,以 
提升 数字 图 书馆 知识 发 现 服务 的 效果 。 
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Abstract: [Purpose/significance | In the context of big data, the user’ s knowledge needs are changed from decen- 
tralization to correlation, and multi-feature coupling is used to assist the knowledge discovery service to discover multiple 
correlations between resources, thereby optimizing knowledge discovery services. [ Method/process | The concept of 
multi eature coupling was defined by analyzing the internal and external attribute characteristics of the literature. This pa- 
per analyzed the relationship between multi feature coupling and digital library knowledge service according to the function 
of multi-feature coupling. Then, by combining the existing knowledge discovery system, the multi feature coupling struc- 
ture was constructed. And the method of improving the supply side of the knowledge discovery service was proposed based 
onsdata layer-coupling layer-service layer. [ Result/conclusion | The data layer guarantees the quality of the data, the da- 
ta source changes from single to mixed; the coupling layer enhances the effect of coupling analysis, the unit of analysis 
chiafiges from coarse-grained to fine -grained, the semantic association between fine -grained units attracts much attention ; 
thesservice layer attaches importance to the user s interactive experience and develops multi -dimensional visualization 
function. 
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